Pre-trained language models (PLMs) are known to improve the generalization performance of natural language understanding models by leveraging large amounts of data during the pre-training phase. However, the out-of-distribution (OOD) generalization problem remains a challenge in many NLP tasks, limiting the real-world deployment of these methods. This paper presents the first attempt at creating a unified benchmark named GLUE-X for evaluating OOD robustness in NLP models, highlighting the importance of OOD robustness and providing insights on how to measure the robustness of a model and how to improve it. The benchmark includes 13 publicly available datasets for OOD testing, and evaluations are conducted on 8 classic NLP tasks over 19 popularly used PLMs. Our findings confirm the need for improved OOD accuracy in NLP tasks, as significant performance degradation was observed in all settings compared to in-distribution (ID) accuracy.
translated by 谷歌翻译
语义细分是一种关键技术,涉及高分辨率遥感(HRS)图像的自动解释,并引起了遥感社区的广泛关注。由于其层次表示能力,深度卷积神经网络(DCNN)已成功应用于HRS图像语义分割任务。但是,对大量培训数据的严重依赖性以及对数据分布变化的敏感性严重限制了DCNNS在HRS图像的语义分割中的潜在应用。这项研究提出了一种新型的无监督域适应性语义分割网络(MemoryAdaptnet),用于HRS图像的语义分割。 MemoryAdaptnet构建了一种输出空间对抗学习方案,以弥合源域和目标域之间的域分布差异,并缩小域移位的影响。具体而言,我们嵌入了一个不变的特征内存模块来存储不变的域级上下文信息,因为从对抗学习获得的功能仅代表当前有限输入的变体特征。该模块由类别注意力驱动的不变域级上下文集合模块集成到当前伪不变功能,以进一步增强像素表示。基于熵的伪标签滤波策略用于更新当前目标图像的高额伪不变功能的内存模块。在三个跨域任务下进行的广泛实验表明,我们提出的记忆ADAPTNET非常优于最新方法。
translated by 谷歌翻译
从精细分辨率遥感图像的建筑提取在许多地理空间应用中起着重要作用,例如城市规划,人口统计,经济评估和灾害管理。随着深度学习技术的进步,深度卷积神经网络(DCNNS)占据了自动建筑提取任务多年。但是,DCNN的本地属性限制了全局信息的提取,削弱了网络识别建筑实例的能力。最近,变换器包括计算机视觉域中的热门话题,并在基本视觉任务中实现最先进的性能,例如图像分类,语义分割和对象检测。受此启发,在本文中,我们提出了一种新颖的基于变压器的网络,用于从微分辨率遥感图像中提取建筑物,即培养器。与Reset相比,所提出的方法在WHU建筑物数据集上实现了MIOU的2%。
translated by 谷歌翻译
平均野外游戏(MFGS)提供了一个可在数学上拖动的框架,用于通过利用平均场理论来简化代理之间的相互作用来建模大规模多代理系统。它使应用逆增强学习(IRL)能够通过从展示的行为中恢复奖励信号来预测大人群的行为。但是,现有的MFG的IRL方法无能为力,无法确定各个代理的行为中的不确定性。本文提出了一个新颖的框架,平均场对抗IRL(MF-AIRL),该框架能够解决示范中的不确定性。我们在最大熵IRL和新的平衡概念上建立MF-AIRL。我们通过不完美的演示评估了对模拟任务的方法。实验结果证明了MF-AIRL比奖励恢复中现有方法的优越性。
translated by 谷歌翻译
Domain adaptive detection aims to improve the generalization of detectors on target domain. To reduce discrepancy in feature distributions between two domains, recent approaches achieve domain adaption through feature alignment in different granularities via adversarial learning. However, they neglect the relationship between multiple granularities and different features in alignment, degrading detection. Addressing this, we introduce a unified multi-granularity alignment (MGA)-based detection framework for domain-invariant feature learning. The key is to encode the dependencies across different granularities including pixel-, instance-, and category-levels simultaneously to align two domains. Specifically, based on pixel-level features, we first develop an omni-scale gated fusion (OSGF) module to aggregate discriminative representations of instances with scale-aware convolutions, leading to robust multi-scale detection. Besides, we introduce multi-granularity discriminators to identify where, either source or target domains, different granularities of samples come from. Note that, MGA not only leverages instance discriminability in different categories but also exploits category consistency between two domains for detection. Furthermore, we present an adaptive exponential moving average (AEMA) strategy that explores model assessments for model update to improve pseudo labels and alleviate local misalignment problem, boosting detection robustness. Extensive experiments on multiple domain adaption scenarios validate the superiority of MGA over other approaches on FCOS and Faster R-CNN detectors. Code will be released at https://github.com/tiankongzhang/MGA.
translated by 谷歌翻译
Self-supervised monocular depth estimation has shown impressive results in static scenes. It relies on the multi-view consistency assumption for training networks, however, that is violated in dynamic object regions and occlusions. Consequently, existing methods show poor accuracy in dynamic scenes, and the estimated depth map is blurred at object boundaries because they are usually occluded in other training views. In this paper, we propose SC-DepthV3 for addressing the challenges. Specifically, we introduce an external pretrained monocular depth estimation model for generating single-image depth prior, namely pseudo-depth, based on which we propose novel losses to boost self-supervised training. As a result, our model can predict sharp and accurate depth maps, even when training from monocular videos of highly-dynamic scenes. We demonstrate the significantly superior performance of our method over previous methods on six challenging datasets, and we provide detailed ablation studies for the proposed terms. Source code and data will be released at https://github.com/JiawangBian/sc_depth_pl
translated by 谷歌翻译
图像介入寻求一种语义一致的方法,以根据其未掩盖的内容来恢复损坏的图像。以前的方法通常将训练有素的甘恩重复使用,然后在产生逼真的斑块中用于缺少GAN反转的孔。然而,在这些算法中对硬约束的无知可能会产生gan倒置和图像插入之间的差距。在解决这个问题的情况下,我们在本文中设计了一个新颖的GAN反转模型,用于图像插入,称为Interverfill,主要由带有预调制模块的编码器和具有F&W+潜在空间的GAN生成器组成。在编码器中,预调制网络利用多尺度结构将更多的歧视语义编码为样式向量。为了弥合GAN倒置和图像插入之间的缝隙,提出了F&W+潜在空间以消除巨大的颜色差异和语义不一致。为了重建忠实和逼真的图像,一个简单而有效的软上升平均潜在模块旨在捕获更多样化的内域模式,以合成大型腐败的高保真质地。在包括Ploce2,Celeba-HQ,Metfaces和Scenery在内的四个具有挑战性的数据集上进行的全面实验表明,我们的Intervill效果优于定性和定量的高级方法,并支持室外图像的完成。
translated by 谷歌翻译
图像介入是一个不适的问题,可以基于带有遮罩的不完整图像来恢复缺失或损坏的图像内容。以前的作品通常可以预测辅助结构(例如边缘,分割和轮廓),以帮助以多阶段的方式填充视觉逼真的斑块。但是,不精确的辅助先验可能会产生有偏见的成分结果。此外,对于复杂的神经网络的多个阶段来实现的某些方法是耗时的。为了解决此问题,我们开发了一个端到端的多模式引导的变压器网络,包括一个镶嵌分支和两个用于语义分割和边缘纹理的辅助分支。在每个变压器块中,提出的多尺度空间感知注意模块可以通过辅助构成规范有效地学习多模式结构特征。与以前依赖于偏见先验的直接指导的方法不同,我们的方法基于来自多种模式的判别性相互作用信息,在图像中具有语义一致的上下文。关于几个具有挑战性的图像镶嵌数据集的全面实验表明,我们的方法实现了最先进的性能,以有效地处理各种常规/不规则面具。
translated by 谷歌翻译
视频过渡效果被广泛用于视频编辑中,以连接镜头,以创建凝聚力和视觉上吸引人的视频。但是,由于缺乏摄影知识和设计技能,非专业人士选择最佳过渡是一个挑战。在本文中,我们介绍了执行自动视频过渡建议(VTR)的主要工作:给定一系列原始视频镜头和伴侣音频,建议每对相邻拍摄的视频过渡。为了解决此任务,我们使用有关编辑软件的公开视频模板收集了一个大规模的视频过渡数据集。然后,我们将VTR作为从视觉/音频到视频过渡的多模式检索问题,并提出了一个新型的多模式匹配框架,由两个部分组成。首先,我们通过视频过渡分类任务了解视频过渡的嵌入。然后,我们提出了一个模型,以学习从视觉/音频输入到视频过渡的匹配对应关系。具体而言,所提出的模型采用多模式变压器来融合视觉和音频信息,并捕获顺序过渡输出中的上下文提示。通过定量和定性实验,我们清楚地证明了我们方法的有效性。值得注意的是,在综合用户研究中,我们的方法获得了与专业编辑者相比的可比分数,同时通过\ textbf {300 \ scalebox {1.25} {$ \ times $}}提高视频编辑效率。我们希望我们的工作能够激发其他研究人员从事这项新任务。数据集和代码在\ url {https://github.com/acherstyx/autotransition}上公开。
translated by 谷歌翻译
本文介绍了我们针对CVPR2022通用事件边界字幕(GEBC)竞赛的冠军解决方案。 GEBC要求字幕模型对给定视频边界周围的瞬时状态变化具有理解,这使其比传统的视频字幕任务更具挑战性。在本文中,提出了对视频内容编码和字幕生成的改进的双流变压器:(1)我们利用三个预训练的模型从不同的粒度中提取视频功能。此外,我们利用边界的类型作为提示,以帮助模型生成字幕。 (2)我们特别设计一个称为双流变压器的模型,以学习边界字幕的区分表示。 (3)为了生成与内容相关和类似人类的标题,我们通过设计单词级合奏策略来提高描述质量。 GEBC测试拆分的有希望的结果证明了我们提出的模型的功效。
translated by 谷歌翻译